#Jakub Pachocki
OpenAI首席架構師與科學家專訪:關於GPT-5、自動化研究與未來圖景
為了揭示其最新旗艦模型GPT-5背後的戰略思考,以及支撐其持續創新的獨特研究文化,OpenAI的兩位核心大腦——首席科學家雅各布·帕喬基(Jakub Pachocki)與首席研究官馬克·陳(Mark Chen),接受了a16z 的普通合夥人Anjney Midha 和Sarah Wang最新獨家訪談。在這場對話中,帕喬基和陳不僅闡述了GPT-5致力於將“推理”能力主流化的核心使命,更首次系統性地披露了OpenAI的終極研究目標——創造一個“自動化的研究員”,以實現科學發現的自動化。他們坦誠地探討了傳統評估基準飽和後的新挑戰,分享了OpenAI在人才招募、組織文化建設以及平衡基礎研究與產品開發方面的獨特策略。核心觀點:GPT-5的核心使命: 將模型的「推理」能力從專業領域推廣到主流應用,讓AI預設具備更強的思考和代理行為能力。終極研究目標: 製造一個“自動化的研究員”,實現新想法和科學發現的自動化,並最終自動化機器學習研究本身。超越傳統評估基準: 傳統基準已近飽和,未來的評估重點將轉向模型在數學、程式設計競賽等真實世界指標上的表現,以及在經濟相關領域做出實際發現的能力。OpenAI的研究文化: 文化核心是保育基礎研究,鼓勵研究者著眼長遠,專注於發現深度學習的新事物,而非追趕短期競爭。編碼新範式已經到來: 對於新一代的開發者而言,預設的編碼方式已經是“氛圍編碼(vibe coding)”,即透過與AI協作來完成程式設計任務。不變的約束: 算力永遠是稀缺資源,物理世界的約束(如能源)將是未來AI發展的重要考量。GPT-5的核心使命:將「推理」能力主流化在過OpenAI的模型矩陣中存在著一個使用者體驗上的割裂:以GPT-4為代表的「即時回應」模型,和以O系列為代表的「長時思考」模型。而GPT-5的誕生,正是為了終結這種分裂,將強大的「推理」能力作為一項預設組態,提供給所有使用者。馬克·陳解釋了這一戰略背後的思考:“在策略上,我們不希望我們的使用者對,我應該使用哪種模式感到困惑?……我們認為未來是關於越來越多地推理,越來越多地關於智能代理。而且,我們認為GPT-5是朝著默認提供推理和更具代理行為能力的方向邁出的一步。”這意味著,GPT-5不僅是性能的線性提升,更是一次產品哲學的根本性轉變。它旨在智能地判斷使用者請求所需的“思考量”,從而無縫地融合快速回覆與深度推理,讓強大的代理行為能力成為AI服務的基礎設施,而不是一個需要使用者手動選擇的高級選項。雅各布·帕喬基補充道,“相對於O3,以及我們之前的模型,這個模型在各個方面也有許多改進。但是我們主要的,這次發佈的論點確實是將推理帶給更多的人。”在內部測試中,GPT-5的能力已經讓專業領域的頂尖人才感到驚訝。馬克陳分享道:“我們會讓模型和我們的一些朋友一起嘗試,他們是專業的物理學家或專業的數學家……他們嘗試GPT-5 Pro,然後說,哇,這是之前的模型版本無法做到的。這對他們來說是一個靈光一閃的時刻。”超越飽和基準:衡量「真實發現」的新標尺隨著模型能力的指數級增長,一個嚴峻的問題擺在了所有AI研究者面前:傳統的評估基準正在迅速飽和。當模型在各項測驗中的得分從98%提升到99%時,這種微小的增益已不再能真實反映其能力的本質飛躍。帕喬基坦言,OpenAI正面臨「偉大評估的赤字」。他指出,隨著強化學習等新訓練方法的引入,模型可以在特定領域達到極高的專業水平,但這並不總是能泛化到其他任務。因此,評估體系必須進化。未來的評估重心將從標準測驗轉向衡量模型在真實世界中的「發現」能力。帕喬基明確表示:“我認為我們關注的重點是模型能夠發現新事物的實際標誌。我認為對我來說,今年最令人興奮的趨勢,以及實際的進步跡象,是我們的模型在數學和程式設計競賽中的表現……我們正在關注的下一組評估和里程碑將涉及實際的,發現,以及實際的,在經濟上相關的……事情的進展。”馬克陳對此表示贊同,他認為像國際數學奧林匹克(IMO)、AtCoder程式設計競賽等,是“未來研究成功的真實世界指標”,因為世界上許多頂尖的研究人員都曾在這些競賽中嶄露頭角。讓模型在這些領域取得突破,是通往真正創新的必經之路。終極研究目標:打造“自動化的研究員”在訪談中,帕喬基首次系統性地揭示了OpenAI研究計畫的“終極目標狀態”,一個貫穿其所有研究工作的宏大願景。「因此,我們研究的主要目標是生產,一個自動化的研究員。因此,自動化新想法的發現。」他解釋說,這個目標的一個具體體現,就是自動化機器學習研究本身,但這可能會顯得過於「自我參照」。因此,他們也正在積極探索如何自動化其他科學領域的進展,例如物理學、數學等。衡量這項進展的關鍵指標,是模型能夠獨立思考和解決問題的時間跨度。帕-喬-基認為,目前模型在程式設計競賽等領域的表現,相當於「大約1到5個小時的推理程度」。而OpenAI的下一個核心研究方向,就是「擴展這個時間範圍,包括模型在非常長的時間範圍內進行規劃的能力,以及實際保留記憶的能力。」 這意味著,未來的AI不僅要更聰明,更要具備長期的專注力、記憶力和專案管理能力,才能從解決「習題」真正跨越到進行「研究」。OpenAI的研究文化:保護基礎研究與招募“穴居人”要實現如此宏大的目標,離不開一個獨特的、能夠抵禦外界噪音的研究文化。在當今AI領域競爭白熱化的背景下,各大實驗室很容易陷入追趕彼此最新發佈的短期競賽。而OpenAI的領導者們,則將「保護基礎研究」視為其文化的核心。馬克陳強調:“我認為實際上最重要的是確保你保護基礎研究……你不能讓他們被拉向所有這些不同的產品方向。”帕喬基也補充道,他們的工作很大一部分是確保研究人員有足夠的空間和舒適感去思考“一年或兩年後事情實際上會是什麼樣子?”,而不是僅僅在當前範式中進行迭代改進。這種對長遠目標的堅定信念,使得OpenAI能夠持續在前沿領域進行創新。“我們真的不喜歡抄襲,”帕喬基說,“我認為人們會受到這個使命的鼓舞,你們實際上是在發現關於深度學習堆棧的新事物。”在人才招募方面,OpenAI同樣有著與眾不同的標準。他們不只關注那些在社群媒體上聲名顯赫或發表了引人注目論文的研究者,而是更傾向於尋找那些能夠解決難題的「穴居人(cave dwellers)」——即那​​些在幕後默默進行深度工作的人。帕喬基解釋說:「我們尋找的一個東西是,在任何領域都解決過難題。我們許多最成功的研究人員,他們的深度學習之旅始於OpenAI,並且在其他領域工作過,比如,物理學,或者……金融。」 紮實的技術基礎、挑戰雄心勃勃問題的渴望,以及最重要的——堅持(persistence),是OpenAI最看重的品質。編碼新範式:從競技程式設計到“氛圍編碼”身為兩位曾經的競技程式設計師,帕喬基和陳對AI編碼模型的發展感觸尤深。他們坦言,如今的程式設計模型在許多方面已經超越了他們自身的能力,而這正在催生一種全新的程式設計範式。馬克陳分享了一個有趣的觀察:“上週末我和一些高中生聊天,他們說,實際上默認的編碼方式是憑感覺編碼(vibe coding)。”對於新一代的開發者來說,從頭開始編寫所有代碼機制已經成為一個“奇怪的概念”,他們默認的工作流就是與AI進行高效協作。陳甚至憧憬道:“我確實認為,未來有希望會是氛圍研究(vibe research)。”儘管AI編碼工具已經變得異常強大,帕喬基認為,目前仍處於一個「恐怖谷(uncanny valley)」階段。他解釋說,雖然GPT-5已經能夠“在15分鐘內幾乎完美地完成一個30個檔案的重構”,你必須使用它,但它在互動體驗上仍然不如一個真正的人類同事。因此,OpenAI的首要任務之一,就是帶領編碼工具走出這個恐怖谷,使其成為更無縫、更聰明的合作夥伴。不變的約束:算力、物理與研究的邊界在討論AI未來的無限可能性時,兩位科學家也不斷強調那些「不變的限制」。對於近年來業界流傳的「算力不再是瓶頸,數據才是」的說法,帕喬-基和陳都給出了堅決的否定。「我並沒有太相信『我們將受到數據限制』的說法,」帕喬基說,「我不希望這種情況發生改變。」馬克陳則用一句玩笑強調了算力的極端稀缺性:「任何說那種話的人都應該來我的崗位上乾一週。沒有人會說,我擁有我需要的所有計算能力。」除了算力,帕喬基認為,更底層的約束來自於物理世界。“我認為比算力更廣泛的是物理約束,例如能源,而且在不遠的將來,機器人技術將成為一個主要焦點。所以思考物理約束將仍然很重要。”結語:信任是持續創新的驅動力在訪談的最後,話題回到了一個更深層的、關於人的問題:是什麼讓OpenAI在達到如此規模後,依然能維持新創公司般的創新速度?馬克陳認為,秘訣在於其獨特的科研文化,讓身處其中的人永遠不會感到「學習高原期」。 “你每週都在學到很多東西……如果你產生的研究成果多到你幾乎無法掌握它們,這幾乎是一件好事。”而這種文化的基石,則是核心團隊之間深厚的信任。帕喬基與陳之間長達多年的默契合作與相互信賴,已成為Open-AI內部文化的象徵。正如歷史上許多偉大的科學發現都誕生於一對緊密的合作者一樣,他們的夥伴關係,或許正是驅動這個全球最頂尖AI實驗室不斷突破邊界的、最人性化的引擎。天空之城全文整理版引言:GPT-5與研究文化Jakub: 我們所針對的重大目標是製造一個自動化的研究員。因此,自動化新想法的發現,我們正在關注的下一組評估和里程碑將涉及在具有經濟相關性的事物上的實際進展。Mark Chen: 我在和一些高中生交談,他們說,實際上預設的編碼方式是氛圍編碼。我確實認為,未來有望是氛圍研究。Anjney: 感謝雅各和馬克的光臨。雅各布,你是OpenAI的首席科學家。馬克,你是OpenAI的首席研究官,你們都擁有營運可能是在人工智慧領域最受矚目的研究團隊之一的特權和壓力。所以我們非常興奮,想和你們談談我們一直好奇的一系列事情,包括GPT 5,這是OpenAI最近發布的最令人興奮的更新之一。然後退一步說,你們如何建立一個不僅能做GPT 5,還能做Codex和ChatGPT以及一個API業務的研究團隊,並且可以將你們在各種模態、各種產品形態上的許多不同押注,編織成一個連貫的研究文化和故事。那麼,為了啟動討論,我們不如從GPT 5開始吧?從你們的角度,簡單談談GPT 5的發布,情況如何?Mark Chen: 我認為GPT 5 確實是我們嘗試將推理帶入主流的努力。而且,在GPT 5之前,對吧,我們有兩個不同的模型系列。你有,GPT類型的二、三、四系列,它們是這個即時反應模型。然後我們有一個O系列,它,本質上會思考很長時間,然後給你它能給出的最佳答案。所以在策略上,我們不希望我們的用戶對,我應該使用哪種模式感到困惑?這涉及到大量的研究,以及確定對於任何特定提示來說,正確的思考量應該是什麼樣的,並且,消除用戶這方面的痛苦。所以我們認為未來是關於越來越多地推理,越來越多地關於智能代理。而且,我們認為GPT 5是朝著預設提供推理和更具代理行為能力的方向邁出的一步。Jakub: 相對於O3,以及我們先前的模型,這個模型在各方面也有許多改進。但是我們主要的,我們主要的,這次發布的論點確實是將推理帶給更多的人。評估的演進:從飽和基準到真實發現Sara Wang: 你能多談談你們是如何看待評估的嗎?我注意到即使在那個發布影片中,也有一些評估顯示你的表現從,98%逐漸提升到99%,而這某種程度上表明,你已經飽和了評估。你們採取什麼方法來衡量進展?你們又是如何看待這個問題的呢?Jakub: 一件事是,確實對於像我們過去幾年使用的這些評估來說,它們確實非常接近飽和。所以,例如,對它們中的很多來說,例如,從96%提升到98%不一定是,世界上最重要的事情。我認為另一件可能更重要的事情,但當我們處於GPT-2、GPT-3、GPT-4時代時,它稍微有點微妙,有一種方法。你只需要在大量資料上預先訓練一個模型,然後你就可以使用這些,評估作為一種衡量標準,衡量它如何泛化到不同的任務。現在我們有了,不同的訓練方式,特別是,在嚴肅推理上進行強化學習,我們可以選擇一個領域,我們可以真正訓練一個模型,使其成為該領域的專家,從而對它進行深入推理,這讓我們,能夠針對特定的,類型的,的,的,任務,這意味著,比如,我們可以在一些評估中獲得極好的表現,但它並不表明其他事情可以很好地泛化到其他事情。我覺得,我們在這個世界裡思考問題的方式,我們確實覺得有點我們有點,赤字,例如,關於偉大評估的赤字。我認為我們關注的重點是模型能夠發現新事物的實際標誌。我認為對我來說,今年最令人興奮的趨勢,以及實際的進步跡象,是我們的模型在數學和程式設計競賽中的表現。雖然我認為它們在某種意義上也變得飽和了,我們正在關注的下一組評估和里程碑將涉及實際的,發現,以及實際的,在經濟上相關的,關於事情的進展。Sara Wang: 完全正確。你們已經在AtCoder競賽中獲得了第二名。所以只剩下一個,只剩下第一名了。Mark Chen: 我認為重要的是要注意,這些評估,例如,IOI,AtCoder,IMO,實際上是未來研究成功的真實世界指標。我認為很多,世界上最好的研究人員都參加過這些比賽,並且取得了非常好的成績。我認為我們正在為這個前沿做準備,我們正試圖讓我們的模型發現新的事物。Sara Wang: 非常激動人心。GPT-5的驚喜時刻與長期願景Anjney: 在發布之前,當您在評估基準測試中工作或在內部使用GPT-5 時,哪項能力最令您驚訝?是否有那麼一些時刻,您覺得它開始足夠好,可以發布了,因為它在您的日常使用中很有用?Mark Chen: 我認為對我來說,一件大事是,它在非常困難的科學領域推動了前沿發展。我們會讓模型和我們的一些朋友一起嘗試,他們是,專業的物理學家或專業的數學家。而且你已經在推特上看到了一些這樣的例子,你可以拿出一個問題,讓它發現,也許不是非常複雜的新數學,但是,一些非同尋常的新數學,而且,我們,我們看到物理學家、數學家不斷地重複這種體驗,他們嘗試GPT-5 Pro,然後說,哇,這是之前的模型版本無法做到的。這對他們來說是一個靈光一閃的時刻。這就能夠自動化也許需要他們一個學生花幾個月才能完成的事情。Jakub: GPT-5 是O3 的一個,一個明顯的改進。對我來說,O3 絕對是推理模型變得在日常生活中真正非常有用的時刻,特別是對於,處理數學,公式或,或推導,比如它們,它實際上達到了一個相當值得信賴的水平,而且我實際上可以把它當作一個工具,用於我的工作。到達那一刻非常令人興奮。但我期望,正如我們所看到的,這些模型,例如實際上能夠自動化,例如我們所說的,解決更長時間範圍內的上下文問題。我期望那與未來一年內即將發生的事情相比,是很小的。Anjney: 未來一到五年內會發生什麼事?就在你,你覺得可以分享的任何程度。研究路線圖是什麼樣的?Jakub: 因此,我們研究的主要目標是生產,一個自動化的研究員。因此,自動化新想法的發現。當然,我們經常考慮的一個特定事情是自動化我們自己的,自己的工作,自動化機器學習研究。但這可能會變得有點自我參照。所以我們也正在考慮自動化其他科學領域的進展。而且我認為衡量進展的一個好方法是觀察這些模型實際上能夠推理和取得進展的時間範圍。因此,現在當我們達到接近精通這種高中競賽的程度時,我想說我們達到了大約1到5個小時的推理程度。所以我們專注於擴展這個時間範圍,包括模型在非常長的時間範圍內進行規劃的能力,以及實際保留記憶的能力。Mark Chen: 回到評估的問題。這就是為什麼我認為評估的形式,例如這個模型自主運作的時間有多長,對我們特別有意義。代理、推理與開放式問題Sara Wang: 實際上,也許在這個主題上,出現了一種趨向於代理和模型開發的巨大趨勢,但我認為至少就目前的狀態而言,用戶已經觀察到這種權衡,即太多的工具或規劃步驟可能導致質量下降,而相比之下,代理性稍差的東西。至少從今天觀察到的情況來看,品質會更高一些。你們如何看待穩定性和深度之間的權衡?模型執行的步驟越多,第10步的準確性可能就越低,而不是讓你只做一件事。它可以做得非常好。讓它把這一件事做得越來越好,但更複雜的事情就會有某種權衡。但當然,要實現完全自主,你需要採取多個步驟。你正在使用多種工具。Jakub: 我認為實際上,保持深度的能力很大程度上是在漫長的過程中保持一致。所以,我認為這些都是非常相關的問題。事實上,我認為對於推理模型,我們已經看到這些模型大大地擴展了它們能夠推理、工作並可靠地進行下而不會偏離軌道的時間長度。我認為這將仍然是我們關注的重要領域。Mark Chen: 而且我認為推理是長期運作能力的核心,因為,你可以想像自己解決一道數學題,你嘗試一種方法,但它行不通。你必須思考,下一步我將採取什麼方法,第一種方法有哪些錯誤,然後你嘗試另一種方法。世界會給你一些嚴厲的回饋,然後你不斷嘗試不同的方法,並且長期堅持這樣做,這種能力就是推理,它賦予智能體那種穩健性。Sara Wang: 我們談了很多關於數學和科學的內容。我想知道你對這個問題的看法,你是否認為我們取得的一些進展實際上可以類似地擴展到那些不太容易驗證的領域,那些不那麼明確地有對錯之分的領域?Jakub: 這是我非常喜歡的問題。我認為如果你真的想擴展到研究領域,並且,找到、發現那些在數月或數年的時間尺度上對技術產生有意義的推進的想法,我認為這些問題就不再那麼不同了,就像解決一個在小時尺度上非常明確、受到良好約束的問題是一回事,並且你需要搜尋的想法數量是有限的。這可能與解決非常開放式的問題感覺截然不同。但即使你想解決一個定義非常明確,但規模更長遠的問題,對吧。比如,證明千禧年大獎難題。那突然就需要你思考,好吧,哪些數學或其他科學領域可能相關?有沒有我必須借鏡的來自物理學的靈感?speaker_5: 比如,我想圍繞這個問題開展的整個專案是什麼?Jakub: 現在這些變成了非常開放式的問題,而且實際上很難,對於我們自己的研究來說,比如,如果我們只關心,減少給定數據集上的建模子句,比如,衡量這方面的進展,比如,我們是否實際上在研究中提出了正確的問題?比如,實際上變成了一個相當開放的事情。Mark Chen: 我認為考慮開放式的含義的界限是什麼也是有意義的,我認為之前一段時間山姆發推特說了我們在改進模型,讓它們更具創造力,我們也會考慮極端情況。Sara Wang: 對。對。強化學習的持續驚喜Anjney: 讓我們來談談強化學習(RL),因為自從O1發布以來,強化學習似乎一直是一份驚喜不斷的禮物。每隔幾個月,OpenAI就會發布一個版本,然後每個人都會說,太棒了。但這個強化學習的東西總是會達到瓶頸。我們將會使評估飽和。模型將無法泛化,或者會因為過多的合成數據而發生模式崩潰,不管怎樣,每個人都有一大堆理由相信強化學習帶來的性能提升將會耗盡,但不知何故,它們就是沒有,你們總是不斷地推出持續的改進。為什麼強化學習效果這麼好?如果有什麼讓你驚訝的,那是什麼?它工作得如此出色,有什麼讓你感到驚訝嗎?Jakub: 強化學習是一種非常通用的方法,而且一旦你有一個可用的強化學習系統,你可以探索很多想法。在OpenAI很長一段時間,我們在語言模型之前就開始研究這個,就像我們在思考,好吧。就像強化學習是非常強大的東西,當然,在深度學習之上,而深度學習是一種非常通用的學習方法。但我們長期以來都在努力解決的問題是,環境是什麼?例如,我們如何真正將這些模型錨定到現實世界?或者,我們是否應該,模擬某個島嶼,在那裡他們都學會合作和競爭。然後,當然就出現了,語言建模的突破,我們看到,好吧,如果我們,如果我們,如果我們擴展深度學習來建模自然語言,我們可以創建對人類語言有著極其細緻理解的模型。所以從那時起,我們一直在,一直在,尋求如何結合這些範例,以及如何讓我們的強化學習在自然語言上運作。一旦你這麼做了,對吧,那樣你就有能力,實際上,去執行,在,在,在這些不同的想法和目標上,在這個非常,健壯,豐富的環境中,由預訓練提供。所以,所以這是一個,這是一個,這是一個真正的,我認為這可能是我們過去幾年研究中最激動人心的時期,我們真的,我們發現瞭如此多的新方向和有希望的想法,這些想法似乎都在奏效,並且,並且,並且,並且我們正在努力,理解如何比較。Anjney: 對於那些不是強化學習從業者的人來說,強化學習最困難的事情之一就是建立正確的獎勵模型的想法。因此,特別是如果你是一家企業或公司,想要利用你們所取得的所有驚人進展,但甚至不知道從哪裡開始,那麼對於這樣一家公司來說,未來幾年會是什麼樣子的?對於試圖理解強化學習以建立正確的獎勵模型的人來說,什麼是正確的思考模式?關於最佳實踐或思考方法,關於使用最新的,推理技術系列,你有什麼瞭解嗎?身為生物學家或物理學家,我應該如何思考,甚至​​是如何處理獎勵建模的?Jakub: 我預期這種情況會發展得非常迅速。我預期它會變得更簡單,我想,大概兩年前我們還在討論,怎樣才是建立我的微調資料集的正確方法?而且我認為我們還沒有到達那個演變的終點。而且我認為我們會逐漸接近更像人類的學習方式,強化學習(RL)仍然不太像。所以我想,我認為最重要的心態是不要假設現在的情況會永遠持續下去。編碼新範式:從競技程式設計到氛圍編碼Sara Wang: 所以我想把話題轉回編碼上。如果不祝賀GPT-5 Codex,我們就太疏忽了,它今天剛發布。你們能詳細說說它有什麼不同嗎?它是如何以不同的方式訓練的?也許說說你們為什麼對它感到興奮。Mark Chen: 所以Codex團隊的一個主要重點是,利用我們從推理模型中獲得的原始智能,使其對現實世界的編碼非常有用。所以,他們所做的許多工作與此基本一致。他們正在努力使模型能夠處理更困難的環境。我們知道現實世界的編碼非常混亂。所以他們試圖處理那裡的所有複雜性。有很多編碼與風格有關,就像一些比較柔性的東西,例如模型有多主動,有多懶惰。並且能夠定義,在某種意義上,例如一個,一個關於編碼模型應該如何運作的規範。他們在那裡做了很多,非常紮實的工作。而且正如你所看到的,就他們也在研究更好的預設,程式設計師,他們對我要等多久有一些概念。我願意等待一個特定的解決方案。我認為我們已經做了很多工作來調整,對於簡單的問題。低延遲更適合解決難題。Jakub: 實際上,更合適的做法是進一步提高延遲,從而為你提供真正最佳的解決方案,而且只需找到那個預設值,也就是難題與易題之間的最佳平衡點。我們發現,上一代的Codex模型花費在解決最難題上的時間太少,而花費在解決簡單問題上的時間太多。Sara Wang: 這可能就是開箱即用的O3所能提供的。既然你們兩位之前都是競技程式設計師,那就來聊聊程式設計這個主題。我知道你已經在OpenAI工作了將近十年,但我被李世乭的故事所震撼,這位圍棋棋手在多次輸給AlphaGo後,最終選擇了退出圍棋界。我想在最近的一次訪談中,你們都表示現在的編碼模型比你們的能力更強,這讓你們感到興奮,請詳細談談這一點。那麼,你們現在還會寫多少程式碼呢?如果你們親自動手寫程式碼,可以泛泛地談談OpenAI,但現在有多少程式碼是由人工智慧寫的?Jakub: 編碼模型變得更好是指什麼?我是說,我認為看到這種進步非常令人興奮。我認為像程式設計競賽這樣,對產生新想法的能力進行了一種很好的封裝測試,而且,在這種類似盒裝的,環境和時間框架內,我的確認為,如果你看看類似,好吧,我想國際數學奧林匹克(IMO)的第六題,或者,或者可能,一些非常難的編程競賽題,我認為模型在這方面還有一點空間,但我預計這方面還有一點空間,但我預計這種情況不會持續太久。我確實參與了一點。歷史上我一直像……他很謙虛。歷史上,我其實一直非常不情願使用任何工具。我只是很大程度上使用了它們。最終尤其是在,最新的編碼工具,像GPT-5,我真的感覺,好吧,這不再是我喜歡的方式,例如,你可以做一個,30個檔案的重構,幾乎可以在15分鐘內完美完成。你必須得用它。所以我一直在,我一直在學習這種新的編碼方式,感覺確實有點不同。我認為它現在仍然有點像恐怖谷,因為你有點不得不使用它,因為它令人興奮地簡化了很多事情,但它仍然有點不如,不如,不如同事好。所以,我認為我們的首要任務是擺脫那個恐怖谷,但是,這絕對是一個有趣的時代。Sara Wang: 當然。Mark Chen: 為了稍微談談重新安置的時刻。我認為AlphaGo對我們兩人來說,都是人工智慧發展中一個非常有意義的里程碑。至少對我來說,這就是我最初開始從事這項工作的原因。也許部分原因是我們在競技程式設計方面的背景,例如我喜歡建立這些模型,這些模型可以在這些競賽形式中表現得非常好,從,解決八年級的數學問題,到一年後,達到我們在這些編碼競賽中的表現水平。看到這種進步真是太瘋狂了。而且,你有點想像或喜歡認為你感受到了一系列至少它都感受到的感覺,對吧。就哇,這真是太瘋狂了。對。那麼,有哪些可能性呢?而且,我花了數十年的時間來做這件事,而且,付出了很多努力才走到前線。所以你真的感覺到這意味著這些模型,有什麼是它們做不到的?對。而且我確實覺得它已經改變了編碼的預設方式。上週末我和一些高中生聊天,他們說,實際上預設的編碼方式是憑感覺編碼。就我想他們會認為,就像也許有時候為了完整性,你會去真正從頭開始完成所有的編碼機制。但這對他們來說只是一個奇怪的概念。就你為什麼要那樣做?你預設就憑感覺編碼。所以,我確實認為,未來有希望會是氛圍研究。偉大研究者的特質Anjney: 我有一個關於這個問題的問題,是什麼造就了一位偉大的研究者,當你說氛圍研究時,氛圍編碼的一個重要部分就是對創造對世界有用且有趣的東西抱有良好的品味。而且我認為像Codex這樣的工具最棒的地方在於,如果你對人們想要什麼有很好的直覺,它能幫助你表達出來,然後基本上非常快速地實現一個原型。對研究來說,什麼是,什麼是類似物,什麼,什麼造就了一個偉大的研究者?Jakub: 堅持,是一個,是一個非常關鍵的特質,就當你真正嘗試去做的時候,研究有什麼不同,我認為研究的特別之處是什麼,是你試圖創造一些東西,或者,或者學習一些尚不為人知的東西,就像它是否奏效是未知的,就像你不知道它是否會奏效。所以總是嘗試一些最有可能失敗的事情。我認為達到一種狀態,即你的心態是準備好失敗,並準備好從這些失敗中學習。而且,所以,而且,當然隨之而來的是創造某種清晰的假設,並且對自己在這方面的表現極其誠實。對。我認為許多人掉入的陷阱是竭盡全力去證明它是有效的。對。這與相信你的想法並認為它極為重要是截然不同的。對。而且你想堅持,堅持下但是你必須對自己誠實,關於它何時有效,何時無效,這樣你才能學習和調整。Mark Chen: 我認為經驗是沒有什麼捷徑的。我認為透過經驗,你會學到,思考問題的正確視角是什麼,但你不能選擇太難的事情,或做太容易的事情會讓你不滿意。我認為很多研究是在很長一段時間內管理你自己的情緒,因為,你嘗試了很多事情,但它們不會奏效。而且有時候,你需要知道何時該堅持或有時候需要轉換到不同的問題。我認為趣味性是某種東西,你可以透過閱讀優秀的論文,與你的同事交談來獲得,然後你可能會將他們的經驗提煉到你自己的過程中。Anjney: 當我在研究所的時候,很大一部分,我是一個失敗的機器學習研究員。我在研究所研究生物資訊學,但我研究顧問的一個主要目標是選擇正確的問題來研究,這樣你就可以在困難時期堅持下去。你說了一些有趣的事情,那就是對一個想法有信念和最大限度地尋求真相之間存在差異,但當它不起作用時,這些東西可能會,或者有時是意圖,因為你有時會對一個你深信不疑的主題或問題產生歸屬感。你有沒有發現,在品味階段,在問題選擇階段,有什麼有用的啟發式方法可以幫助你找到正確的問題集,在這種問題集中,信念和尋求真相不像其他類型的問題那樣處於零和緊張關係中?Jakub: 需要澄清的是,我不認為信念和尋求真理之間真的存在零和緊張關係。我認為你可以這樣,你可以被說服,或者,你可以對某個想法抱持著很大的信念,而且你可以,非常堅持它,即使它行不通。我認為重要的是,你對自己誠實,例如,你取得了多少進展,並且你處於一種能夠從一路上的失敗中學習的心態。我認為重要的是尋找你真正關心並且真正相信是重要的問題。所以,我認為我在許多激勵我的研究人員身上觀察到的一件事是,他們真正地追求難題,例如研究那些廣為人知,但實際上並沒有被認為是容易解決的問題,並問,為什麼它們不容易解決?或者,關於這種方法,有什麼問題?比如,為什麼這種方法會失敗?我認為你總是想著下一步真正的障礙是什麼。如果你正在研究你真正相信是重要的問題,那麼,這會讓你更容易找到堅持數年的動力。Anjney: 在GPT-5的重新訓練階段的開發過程中,例如,在任何存在難題的時刻,最初嘗試解決該問題的方法都不奏效,但你發現有人堅持了下來。在那些故事中,讓你覺得有效,你希望其他人和其他研究人員能多做的,是什麼呢?Jakub:我認為在整個過程中,例如沿著模型的序列,包括預訓練模型和研究模型,我認為一個非常常見的主題是,bug,既有軟體中的愚蠢的bug,這些bug可能會在你的軟體中存在幾個月,並在某種程度上使你所有的實驗都失效,而你卻不知道,識別出這些bug非常有意義的突破,也有那種意義上的bug,例如,你有一種特定的思考方式,而這種方式有點偏差,導致你做出錯誤的假設,識別出這些錯誤的假設,從頭開始重新思考,無論是讓第一個推理模型工作,還是讓更大的預訓練模型工作,我認為我們遇到了很多這樣的問題,我們必須努力解決。打造致勝的研究文化Sara Wang: 身為研究機構的領導者,您如何看待留住團隊中最優秀人才,以及另一方面,如何創建一個非常有韌性的組織,即使關鍵人物離開也不會崩潰?Mark Chen: OpenAI在保持最優秀人才的積極性和興奮度方面最大的優勢在於,我們從事的是基礎研究,我們不是那種環顧四週,然後說,X公司先構建了什麼模型,或者Y公司構建了什麼模型的公司。我們對我們想要建造的東西有一個相當清晰和明確的定義。我們喜歡在前沿領域創新。Jakub: 我們真的不喜歡抄襲,而且,我認為人們會受到這個使命的鼓舞,你們實際上是在發現關於深度學習堆疊的新事物。而且,而且,我認為我們正在一起建立一些非常令人興奮的東西。Mark Chen: 我認為除此之外,很大程度是創造良好的文化。所以我們希望有一個好的管道來培養人們成為非常優秀的研究人員。我們,我認為從歷史上看,我們僱用了,最優秀和最具創新精神的人才。所以我只是認為,我們也有非常深厚的人才儲備。而且,我認為我們的大部分領導者都受到使命的極大鼓舞,這就是讓他們所有人留在那裡的原因,就像我審視我的直屬下屬時,他們並沒有受到人才爭奪戰的影響。Sara Wang: 我最近和一位研究員聊天,他談到想找到「穴居人」。這些人通常是不在社群媒體上發布他們的工作的人。無論出於何種原因,他們甚至可能沒有發表作品。Jakub: 他們有點像在幕後做著工作。Sara Wang: 我不知道你是否同意這個概念,但你們是如何招募研究人員的?是否有任何非顯而易見的方式來尋找人才,或者,你們尋找的非顯而易見的特質是什麼?Jakub: 所以我認為我們尋找的一個東西是,在任何領域都解決過難題。我們許多最成功的研究人員,他們的深度學習之旅始於OpenAI,並且在其他領域工作過,例如,物理學,或者,電腦科學,電腦科學或金融,在過去。紮實的​​技術基礎,再加上有能力,想要從事非常雄心勃勃的問題,並真正堅持下去。我們不只是尋找,誰做了最引人注目的工作,或者,或者,或者在社交媒體上最引人注目,或者,Anjney: 當你說話的時候,我在回想我作為創辦人的時候,當時我在經營自己的公司,我們會招募優秀的工程師人才。你所描述的許多特質都是我當時一直在考慮的。埃隆最近發推文說,他認為整個研究員與工程師的區分是很愚蠢的。這只是語義上的,他只是在,語義上吹毛求疵,還是你認為這兩件事實際上比看起來更相似?Mark Chen: 我的確認為研究人員,他們不只適合一種類型。我們在OpenAI有一些研究人員非常有生產力,他們非常擅長產生想法,而且,他們不一定需要透過實施他們所有的想法來展示巨大的影響力,我認為他們僅僅在提出「我們試試這個」或「我們試試這個」方面就產生瞭如此多的價值。或者也許我們正在考慮那個。而且還有其他的研究人員,他們非常非常擅長,抓住一個想法,嚴格地探索,圍繞著這個想法的實驗空間。所以研究人員有很多不同的類型。也許第一種類型不一定能歸類到偉大的工程師這一類,但是,我們確實試圖擁有相當多樣化的,研究品味和風格。Anjney: 請稍微談談,要創造一種前沿的、制勝的文化,能夠吸引各種各樣的研究人員,然後真正地培養他們,讓他們茁壯成長,讓他們大規模地一起獲勝,需要具備哪些條件。你認為,一個制勝文化最重要的要素是什麼?Mark Chen: 所以,我認為實際上最重要的是確保你保護基礎研究,我認為如今你可能會進入這樣一個世界,許多不同的公司都在考慮,我如何在聊天產品或其他某種產品介面上競爭,而且,你需要確保你留下空間,並認識到研究的本質。並且也要給他們做研究的空間,例如你不能讓他們被拉向所有這些不同的產品方向。所以我認為這是我們在我們的文化中關注的一件事。Jakub: 尤其現在,開放人工智慧備受矚目,人工智慧整體備受矚目,以及不同實驗室之間的競爭。很容易陷入一種心態,例如,我們正在競相擊敗最新的版本之類的。而且,肯定有一些領域,人們開始回頭看,開始思考,這些其他的東西是什麼?而且,在很大程度上,我們的工作是確保人們有這種舒適感和空間去思考,一年或兩年後事情實際上會是什麼樣子?就像我們真正想要回答的重大的研究問題是什麼,以及我們如何才能得到像現在這樣遠遠超過我們所見過的模型,而不僅僅是在當前的範式中迭代改進?平衡研究與產品Sara Wang: 為了進一步探討保育基礎研究這個主題。你們顯然是世界上最好的研究機構之一,但你們也是世界上最好的產品公司之一。你們如何平衡這兩者,特別是,你們也引進了一些世界上最好的產品主管。你們如何在兩者之間平衡這種關注,並在保護基礎研究的同時,繼續推進你們現有的優秀產品?Jakub:Mark Chen: 我認為這在於劃分出一批真正關心產品,並且真正願意對產品的成功負責的研究人員。而且,而且他們當然應該與更廣泛的研究工作緊密協調。但我認為只是讓人們理解他們的任務和他們因什麼而得到獎勵,那是件非常重要的事情。Jakub: 我認為另一個有幫助的事情是,我們的產品團隊以及更廣泛的公司領導層都認可這個願景,我們研究的發展方向。所以,沒有人會認為,例如,我們現在擁有的產品將是我們永遠擁有的產品。我們只需等待,例如,來自研究的新版本。就我們能夠共同思考未來的樣子。Anjney: 你們所做的一件事是讓如此多樣化的不同想法和賭注在OpenAI內部蓬勃發展,然後你們作為研究領導者必須想出某種方法,使這一切作為一個路線圖的一部分,具有連貫的意義。而且你們有,這邊的人在研究擴散模型和視覺媒體的未來。在這裡,你們會看到有人在研究程式碼推理的未來。你如何描繪出一幅連貫的圖像?這所有的一切是如何結合在一起的?當,當至少表面上,在給予研究人員獨立性進行基礎研究,以及以某種方式將所有研究納入一個當前的研究項目之間,可能存在某種緊張關係時。Jakub: 我們的研究計畫的目標狀態,幾年來一直是實現一個自動化的研究者。所以我們一直在,我們一直在,以這個目標為中心建立莫札特計畫。所以這仍然為,各種領域的基礎研究的自下而上的想法產生留下了很大的空間。但是,我們一直在思考這些想法最終將如何結合在一起。我們,我們相信例如,推理模型可以走得更遠,並且我們對一些與推理模型沒有直接關係的事情進行了大量的探索,但我們一直在思考它們最終將如何結合,以及一旦你擁有一個能夠思考難題的工具,它將是什麼樣子,這種創新將會是什麼樣子。所以這種對我們長期目標的清晰認知非常重要。但是,但這並不意味著我們對諸如「這裡是所有的小碎片」之類的東西具有規定性,就像我們絕對將此視為一個關於探索和學習這些技術的問題。Mark Chen: 我認為你希望在非常基礎的層面上具有主見和規定性,但是很多想法會湧現出來,然後找到我們的層面。Anjney: 最近有沒有出現過這些事情之間存在矛盾的時刻?一個啟發性的例子可能是最近,Google推出了這個新的圖像模型,也就是奈米香蕉(Nano Banana)。它展現了非凡的價值。例如,很多一般人,當這些模型擅長理解編輯提示時,就可以釋放大量的創造力。而且,我可以看到這會給一個可能沒有直接優先考慮該問題的研究項目帶來一些壓力。如果,如果你團隊中某個有才華的人過來跟你說,夥計們,像這樣的東西在外在世界顯然非常有價值。我們應該投入更多的精力在這上面。你如何推理這個問題?Jakub: 我認為在OpenAI,這絕對是我們已經思考了很長一段時間的問題。如果你看看GPT-3,對吧,就一旦我們看到,這大概是語言模型的發展方向,我們肯定進行了很多討論,顯然你可以用人工智慧做很多神奇的事情,對吧。而且你將,你將能夠接觸到這種,這種極其聰明的模型,它們,正在推動不同層級的科學發展,但你也將擁有這種令人難以置信的媒體生成能力,以及這種令人難以置信的,變革性的,娛樂應用。所以,我們如何在所有這些方向中確定優先順序?這絕對是我們已經,已經思考了很長一段時間的事情。Mark Chen: 當然。而且,真正的答案是,我們不會阻止某人對那件事感到非常興奮。而且,如果我們在優先排序上和我們的產品策略上保持一致,那麼它自然會水到渠成。所以對我們來說,我們確實鼓勵很多人對,建構這種,或建立像智慧體產品之類的產品感到興奮,無論他們對哪種產品感到興奮。但對我們來說,擁有一個獨立團隊也很重要,你要保護他們,他們的目標是創造演算法進步。資源組態與不變的約束Jakub: 進一步補充安雅的問題,這如何轉化為圍繞資源組態的具體框架?Sara Wang: 例如,你會考慮,X%的計算資源將用於長期,非常重要,但也可能有點不切實際的探索,而另一方面,顯然還有當前的產品推理,以及介於兩者之間的,在短期到中期可以實現的。Mark Chen: 所以我認為這是我們雙方工作的重要組成部分,只是這個投資組合管理問題,即你將多少計算資源分配給哪個項目?而且,我認為從歷史上看,我們更關注核心演算法的進步,而不是產品研究。但這是一個你必須隨著時間的推移去感受的事情,這是動態的。我認為每個月都可能有不同的需求。所以我認為保持相當的靈活性很重要。Sara Wang: 如果你再有10%的資源,你會把它投入到運算方面,還是投入到資料管理人員方面?你會把它從像邊緣的位置插入到哪裡?Mark Chen: 好問題。我想,是今天的計算。我的確認為這與你提出的關於優先順序的問題有關,就像在真空環境中,你希望在任何這些事情上都表現出色並獲勝。我認為危險在於你最終在所有事情上都名列第二,而且,不在任何事情上都明顯領先。所以我認為優先排序很重要,你需要確保你對某些事情有清晰的認識。這就是我們需要贏得的事情。Anjney: 但我認為再多談一點是有意義的,即計算集在某種程度上很大程度上決定了命運,在像OpenAI這樣的研究機構。幾年前,我認為開始流行這樣說,好吧,我們很快就不會受到計算的限制了,因為有一堆CMs(計算市場)正在被發現,我們將變得更有效率,所有的演算法都會變得更好。然後最終,我們真的會處於資料受限的狀態。看起來,幾年過去了,我們仍然處於這種非常受運算限制的環境。你認為這種情況會很快改變嗎?Jakub: 我認為我們已經看到了足夠長的時間,我們可以用計算做多少事情。我並沒有太相信「我們將受到數據限制」的說法。我不希望這種情況改變。Mark Chen: 任何說那種話的人都應該來我的崗位上乾一週。沒有人會說,我擁有我需要的所有運算能力。對。Anjney: 從歷史上看,推進基礎研究的工作在很大程度上一直是大學的職責。部分原因是你剛才描述的計算原因,但對於前沿人工智慧來說,情況並非如此。你們在引導前沿人工智慧進步的軌跡以幫助科學方面做得非常出色。我想知道當這兩個世界碰撞時,即當今大學研究的基礎世界和前沿人工智慧的世界,會產生什麼?Mark Chen: 所以我想我個人是從OpenAI 的住院研究員開始的,這是一個我們為不同領域的人設立的項目,讓他們進來,快速學習人工智慧,並成為一名高效的研究人員。我認為那個專案有很多非常強大的要素。而且,這個想法就我們能否在盡可能短的時間內加速類似博士學位的進程?Jakub: 我認為其中很多看起來就像是實現了很多,非常核心的結果。Mark Chen: 而且,透過這樣做,你將會犯錯。你會想,哇,要建立直覺,如果把這個設定錯了,那將會以這種方式摧毀我的網路。所以你只需要大量的實務經驗。我認為隨著時間的推移,可能所有這些大型實驗室都開發了關於最佳化、架構和強化學習的課程,而且,可能沒有比嘗試實施這些東西、閱讀它們並批判性地思考它們更好的方法了。Jakub: 我認為你在學術界能體驗到的另一件好事是,就是堅持,例如,你有幾年時間,你試圖解決一個問題,而這是一個難題。而且你以前從未處理過如此棘手的問題。而且,我確實覺得這是一件事,目前進展的速度非常快。也許這些想法也比過去更容易實現。因為,深度學習只想學習。短暫地接觸一個更具挑戰性的問題,或許,成為一個團隊的一員,攻克一個雄心勃勃的挑戰,並且,感受到那種,被困住的感覺,以及最終取得進展的感覺,我認為這也是非常值得學習的東西。Sara Wang: 對特定產品發佈的外部感知和接受程度如何影響您對某些事情的優先順序?它是否達到了這樣的程度,感知和使用(如果它們結合在一起),顯然可能有一個明確的指令,但在它們可能有些分離的情況下,這是否會影響您對路線圖的看法或您強調資源的地方?Jakub: 所以,我們通常對未來有一些非常堅定的信念。因此,我們不會將它們與我們產品的短期接受度緊密聯絡起來,當然,我們確實會根據正在發生的事情來學習。我們,閱讀其他論文,並且我們,我們,我們關注其他實驗室在研究什麼。但是,總的來說,我們,我們是從一個對我們所建構的東西有著相當堅定信念的地方出發的。所以,當然,那是對於我們的長期研究項目而言的,當然,當涉及到產品時,就就像這個,這個,這個迭代的週期要快得多。Sara Wang:Mark Chen: 每次發佈,我們都試圖將其定位為在產品方面非常成功的東西。Jakub: 而且,我認為從基礎研究的角度來看,我們正在努力建立具有建構非常豐富的一系列體驗和產品所需的所有核心能力的模型。Mark Chen: 而且,將會有人對他們可以建立的某個特定事物有一些願景,而且,我們會發佈它。我們發佈的每件事,我們都真誠地希望它能獲得巨大的成功,而且,我們會得到回饋。如果它不是那樣,那好吧,稍微調整一下我們的產品策略,但是我們絕對也在從事推出非常有用、非常成功的產品。Anjney: 感覺上,由於我們剛才花了很多時間討論的那種完全不受約束的進步速度,未來幾年將會發生很多變化,這真的很難預測。我想像10年後的情況,更不用說,10個月後的情況了。那麼我的問題,我想,是透過人工智慧前沿將帶來的所有變化,你認為有哪些先驗知識實際上應該保持不變?有什麼嗎?很明顯,我們沒有足夠的算力。你認為還有什麼不會改變,而且你認為作為常數,是應該合理堅持的強先驗知識?Jakub: 我認為比算力更廣泛的是物理約束,例如能源,而且在不遠的將來,機器人技術將成為一個主要焦點。所以,思考物理約束將仍然很重要。但是,我確實認為在智能方面,我不會做太多的假設。結語:信任與持續的驅動力Sara Wang: 很少有新創公司能夠達到你們的規模,無論是從員工角度,還是從收入計數來看,並且保持你們可能擁有的那種極速,在你們加入的七、八年前。這樣做的秘訣是什麼?即使你們現在已經處於頂峰,你們如何繼續保持這種壓力,幾乎以儘可能快的速度交付產品?Mark Chen: 至少在我看來,我們擁有真正優秀的科研文化最明確的標誌之一是,我以前在不同的公司工作過,確實存在一種現象,那就是學習高原期,你去一家公司,你在最初的一兩年裡學到很多東西,然後你就會發現有點我知道如何在這個框架內相當高效地工作,而且我的學習也停止了。我在OpenAI從未有過這種感覺,就像你描述的那種所有這些非常酷的結果不斷湧現的體驗一樣。你每週都在學到很多。而且,要掌握所有這些資訊,需要花費大量時間。這非常令人滿足。所以,不,我認為這是一個非常準確的描述。我們只是想產生大量真正高品質的研究。這幾乎是一件好事。就像如果你產生的研究成果多到你幾乎無法掌握它們一樣。Sara Wang: 完全正確。Jakub: 我認為技術的發展絕對是一種驅動力,也許,也許我們在特定的範式中工作幾年後會變得舒適,但我們總是站在新事物的風口浪尖上,並且,試圖圍繞我們將要面臨的那種新的約束和新的可能性來重新組態我們的思維。所以我認為這創造了一種不斷變化的感覺,以及總是學習新事物的思維模式。Anjney: 在我們的研究中,關於OpenAI的一些在很多變化中沒有改變的事情是,你們兩個人彼此之間的信任。因為,我想最近在《麻省理工科技評論》上有一篇關於你們的文章或簡介。這也是一個突出的主題,你們的化學反應、你們彼此的信任、你們的融洽關係是OpenAI的許多人已經開始將其視為一種常態的東西。那麼背景故事是什麼呢?你們是如何建立信任的?那是怎麼發生的?這就像問,你們看過那部電影嗎? 《當哈利遇見莎莉》。我感覺你好像在沙發上。現在你必須了。Mark Chen: 我的確認為,當我們開始著手推理的最初萌芽時,我們開始更緊密地合作。我們當時,那並不是一個很受歡迎的研究方向。而且我認為我們都看到了其中的希望,我們都在朝著這個方向努力,試圖弄清楚如何讓強化學習(RL)發揮作用。我認為隨著時間的推移,我們把一個非常小的努力逐漸擴大為更大的努力。而且,我認為這就是真正開始與雅各深入合作的地方。我認為他真的是一位傑出的研究員。任何這些排名榜單,他都應該排在第一位,就像他有能力,應對任何非常困難的技術挑戰,並且幾乎像個人一樣思考兩個星期就能解決它。他在理解方面的廣度和深度令人難以置信,他可以深入研究並親自解決許多這些技術挑戰。現在你得說些關於他的好話了。你不必說任何關於雅各的好話。謝謝你,馬克。Jakub: 我覺得,我覺得我們一起做的第一件大事是,我們開始看到,好吧,我們認為這個演算法會起作用。所以,我在想,好吧,我們該如何,引導人們參與這件事?我們和馬克談過,我們應該建立一個團隊,真正讓這件事成功。然後,馬克去做了這件事,就像實際上把一群人聚集在一起,讓他們從事非常不同的事情,把他們聚集在一起,從這個完全不同的群體中創造出一個具有令人難以置信的化學反應的團隊。這對我來說是件非常令人印象深刻的事。我真的很感激也很受鼓舞,我能,和馬克一起工作,並體驗到這一點。我認為這種不可思議的能力既能理解、參與,又能思考研究本身的技術問題。而且還具備卓越的領導和激勵團隊的能力,並能創造一個組織結構,在這種混亂的、無序的方向中,實際上是連貫的,並且能夠凝聚在一起。非常、非常鼓舞人心。太棒了。Sara Wang: 好,說到這裡。Anjney: 科學領域,尤其是在物理學領域,一些最偉大的發現往往來自一對合作者,他們通常跨越大學、跨越領域。看起來你們也加入了這個傳統。所以我們非常感謝你們抽出時間今天來聊天。謝謝你們的光臨。謝謝。Jakub: 謝謝。 (Web3天空之城)
OpenAI兩位首席最新採訪!終極目標是“自動化研究員”,招人並非尋找“最出圈”的人
OpenAI首席科學家Jakub Pachocki與首席研究長Mark Chen開啟同台爆料模式:氛圍編碼的下一步或許是氛圍研究(Vibe Researching);OpenAI的最終目標是實現自動化研究員;現有評估指標正趨近飽和,下一個里程碑將涉及實際的發現和在經濟相關事物上取得實際進展;成功的秘訣在於保護基礎研究,避免被短期產品競爭所牽制;……在a16z的這場最新訪談中,兩人不僅深入探討了GPT-5如何引入長遠推理、如何在基準飽和後衡量進度,以及為什麼強化學習不斷讓懷疑論者感到驚訝,還係統闡述了OpenAI的用人標準、未來路線圖以及算力分配這些重要問題。一句話,凡是你對OpenAI感到好奇的問題,他倆幾乎都談到了~(網友1):深入又有趣!(網友2):聽起來像是一支有著清晰願景的強大團隊。話不多說,訪談重點這奉上——GPT-5:將推理與Agentic行為引入主流採訪第一趴主要關於GPT-5。Mark Chen表示,GPT-5是OpenAI試圖將推理能力帶入主流的一種嘗試。在此之前,公司有GPT系列(主打即時響應)和o系列(主打推理)兩類模型。從策略上講,他們不希望使用者被「我應該使用那種模式」所困擾,所以把未來重心放在了越來越多的推理和Agents上。我們認為,GPT-5是朝著默認提供推理和更多Agentic行為的一步。他還一再強調,雖然比起o3和以前的其他模型,GPT-5在很多方面都有改進,但這款模型最主要的意義還是在於將推理模式帶給更多人。緊接著,主持人又問到了評估趨於飽和的問題,對此Jakub Pachocki也做了一番回答。他一開口就直接承認,我們過去幾年一直使用的這些評估確實已經非常接近飽和。具體而言,早期(從GPT-2到GPT-4)的訓練依賴大規模預訓練資料,並通過評估測試模型的泛化能力;但如今隨著針對嚴肅推理的強化學習出現,可以讓模型在特定領域深度訓練成專家,從而在某些評估中表現突出(卻不一定具備良好泛化性)。因此,目前缺乏更合適的評估體系。他表示,未來OpenAI將重點關注模型是否能夠發現新事物,並在具有經濟相關性的領域中取得實際進展。OpenAI的宏大目標:實現自動化研究員順著發現新事物這個話題,兩人又分別回答了「在GPT-5發佈之前,那種能力最讓你感到驚訝?」這個問題。Mark Chen分享道,印象最深刻的是模型能夠推動非常困難的前沿科學研究。他曾經和一些物理學家、數學家朋友們共同體驗模型,結果大家發現模型能夠解答一些新的、非常複雜的問題。這對他們來說有點像靈光一閃的時刻,它能夠自動化解決可能需要他們的學生花費數月時間的工作。而Jakub Pachocki則表示,o3的出現真正讓他眼前一亮。尤其是在處理數學公式或推理時,它確實達到了一個“相當值得信賴”的水平。至於未來,Jakub透露OpenAI的一個大目標是培養一個自動化研究員,而這個研究員可以自動發現新想法。初步想法是,先自動化自家內部的研究工作,然後再考慮自動化其他科學領域的進展。並且他提到了一個衡量這方面進展的「好方法」——觀察這些模型實際上可以進行推理和取得進展的時間跨度。隨著我們達到近乎精通高中競賽的水平,現在的推理水平達到了大約1~5小時。接下來OpenAI會專注於延長這個時間跨度,無論是在模型的長期規劃能力方面,還是在維持記憶方面。對此Mark Chen也call back了一下評估的問題:這就是為什麼我們對衡量模型自主執行階段間長度的評估很感興趣的原因。強化學習遠未達到瓶頸,“不要將當下的狀態視為終局”接下來話題跳轉到強化學習(RL)。每當OpenAI發布模型新版本之後,很多人都會懷疑強化學習會達到瓶頸,但不知何故,RL依舊「生命力頑強」。所以,為什麼RL運作得如此出色? RL有什麼讓人感到驚訝的地方嗎?面對這一連串提問,Jakub Pachocki首先解釋了RL能運作良好的幾點原因:RL的通用性和強大性:RL本身是一種非常通用的方法,它是一個極其強大的東西,建立在深度學習這一「令人難以置信的通用學習方法」之上。一旦RL系統開始運作,研究人員就可以探索很多想法。錨定現實世界:長期以來,OpenAI努力解決的問題是如何將這些模型錨定到現實世界,即「環境是什麼」。與語言模型的結合:語言模型突破的出現是關鍵轉折點。通過擴展深度學習來建模自然語言,OpenAI能夠建立出對人類語言具有「令人難以置信的細微理解」的模型。Jakub Pachocki認為,過去幾年是OpenAI研究中最令人興奮的時期,因為他們發現瞭如此多的新方向和有希望的想法,而這些想法似乎都在奏效。在談到獎勵模型(Reward Model)時,他預計獎勵模型的發展速度會非常快,並且未來會變得更簡單,就像幾年前大家討論如何建立合適的微調資料集一樣。與此同時,他指出這一演變還遠未結束,OpenAI正在逐步向更接近人類學習的方向邁進,而當前的RL仍無法完全做到這一點。他特別強調,理解RL的關鍵思維模式是不要把當下的狀態視為終局,要保持靈活,因為相關的工具和方法論還會持續快速迭代和演變。氛圍編碼之後:氛圍研究對於當下大熱的AI程式設計,主持人也cue到了OpenAI本月發表的GPT-5-codex,這是一個專門針對程式設計進行優化的模型。Mark Chen表示,在這項工作上他們投入了大量精力來調整預設,以更好地匹配程式設計師對等待解決方案時間長度的預期。上一代程式設計模型的問題在於,花在解決最困難問題的時間太少,而花在解決簡單問題上的時間太多。並且為了測試模型能力,他們選擇了去參加程式設計競賽。Jakub Pachocki認為,程式設計競賽提供了一個很好的、封裝的測試,可以衡量模型在受限環境和時間範圍內提出新想法的能力。不過,Jakub自述作為一位歷史上極其不情願使用任何工具(甚至只使用Vim)的「老派」程式設計師,使用GPT-5最新的編碼工具讓他覺得「這不是(以前的)方式了」。他現在意識到,模型可以在15分鐘內幾乎完美地完成30個檔案的重構,因此「你必須使用它」。他形容這種新的編碼方式目前仍有點處於“恐怖谷”(uncanny valley)階段,因為它雖然解決了許多問題,但“仍然有點像……不如一個同事那麼好”,並表示OpenAI的首要任務是擺脫那個恐怖谷。而Mark Chen則將模型當前達到的水平和圍棋選手李世石面對AlphaGo時的經歷聯繫起來,他直言:從解決八年級數學問題到一年後在編碼競賽中達到他們自己的表現水平,這種進展是瘋狂的。他坦言,他們確實感受到了李世石所經歷的部分情緒,並思考這些模型「有什麼是它們做不到的」。Mark Chen觀察到,這種進步已經改變了編碼的默認方式。他引用最近與高中生的對話,指出現在的年輕人認為默認的編碼方式是「憑感覺編碼」(vibe coding),而自己從頭開始編寫所有編碼機制反而成為一個奇怪的概念。他最後總結道,氛圍編碼之後或許就是氛圍研究(vibe researching),也就是憑感覺研究。OpenAI招募:並非尋找「最出圈」的人具體回歸到人上,兩人也分享了他們最重視的研究特質。Jakub Pachocki認為,堅持是關鍵。研究的本質是探索未知,許多嘗試都會失敗,因此必須做好失敗和從失敗中學習的準備。同時,要有清晰的假設,並且對進展保持極度誠實,不能為了證明結果而自欺欺人。他強調,對自己的想法保持信心很重要,但更重要的是知道什麼時候它有效,什麼時候無效,從而調整方向。Mark Chen補充說,研究沒有捷徑,需要經驗來學習如何選擇合適的問題。問題太難容易受挫,太簡單又缺乏滿足感。研究過程常伴隨大量失敗,需要學習什麼時候堅持,什麼時候轉向。他指出,「趣味性」來自於閱讀好論文、交流和經驗積累。而關於如何留住人才,Mark Chen表示,OpenAI的優勢在於他們專注於基礎研究,而不是簡單地模仿競爭對手。他們有清晰的研究目標,創新氛圍鼓舞了研究員,同時公司也專注於文化建設和人才培養。Jakub則指出,他們尋找的不是最「出圈」的人,而是曾經解決過難題的人,具備紮實技術功底並願意迎難而上的人,那怕之前的領域不是深度學習。我們不會純粹尋找誰做了最引人注目的工作,或者誰在社交媒體上最引人注目(小扎:報我名得了~)。在團隊文化方面,Jakub強調要保護基礎研究,不要被產品競爭的節奏帶偏,研究員需要空間思考未來一兩年的重大問題。總之,OpenAI的長期目標是打造“自動化研究員”,因此不同研究方向會圍繞這一目標逐漸融合。以Mark Chen的話來說就是,粗線條上需要規定方向,但細節保持開放。如果有10%的額外資源,會投向計算如果你有10%的額外資源,你會把它投入到計算、資料整理還是人員方面?面對最後一個關鍵問題,Mark Chen明確表示,計算資源是合理答案。(笑)沒有研究人員會覺得自己有足夠的算力。Jakub補充說,必須明確優先順序,否則可能在所有方向都只能做第二名。他強調計算仍是決定性因素,幾年前大家認為會轉向“數據受限”,但事實證明今天依舊處在強烈的計算限制下。在算力有限的情況下,如今所有主流廠商幾乎都會面臨產品發表和研究那一個優先的問題。對此,Jakub強調OpenAI的研究路線主要基於長期信念,而非短期市場回饋。並且當談到未來那些先驗會保持不變,他認為除了計算,還要考慮能源等物理約束。他預測機器人技術會在不久的將來成為主要焦點。Okk,至此訪談內容告一段落,你怎麼看二人提到的上述觀點? (量子位元)